Un Critère d'Évaluation pour la Construction de Variables à base d'Itemsets pour l'Apprentissage Supervisé Multi-Tables
نویسندگان
چکیده
Résumé. Dans le contexte de la fouille de données multi-tables, les données sont représentées sous un format relationnel dans lequel les individus de la table cible sont potentiellement liés à plusieurs enregistrements dans des tables secondaires en relation un-à-plusieurs. Dans cet article, nous proposons un Framework basé sur des itemsets pour la construction de variables à partir des tables secondaires. L’informativité de ces nouvelles variables est évaluée dans le cadre de la classification supervisée au moyen d’un critère régularisé qui vise à éviter le surapprentissage. Pour ce faire, nous introduisons un espace de modèles basés sur des itemsets dans la table secondaire ainsi qu’une estimation de la densité conditionnelle des variables construites correspondantes. Une distribution a priori est définie sur cet espace de modèles, pour obtenir ainsi un critère sans paramètres permettant d’évaluer la pertinence des variables construites. Des expérimentations préliminaires montrent la pertinence de l’approche.
منابع مشابه
Prétraitement Supervisé des Variables Numériques pour la Fouille de Données Multi-Tables
Résumé. Le prétraitement des variables numériques dans le contexte de la fouille de données multi-tables diffère de celui des données classiques individuvariable. La difficulté vient principalement des relations un-à-plusieurs où les individus de la table cible sont potentiellement associés à plusieurs enregistrements dans des tables secondaires. Dans cet article, nous décrivons une méthode de ...
متن کاملSélection des variables informatives pour l'apprentissage supervisé multi-tables
Résumé. Dans la fouille de données multi-tables, les données sont représentées sous un format relationnel dans lequel les individus de la table cible sont potentiellement associés à plusieurs enregistrements dans des tables secondaires en relation un-à-plusieurs. La plupart des approches existantes opèrent en transformant la représentation multi-tables, notamment par mise à plat. Par conséquent...
متن کاملKhiops: outil d'apprentissage supervisé automatique pour la fouille de grandes bases de données multi-tables
Résumé. Khiops est un outil d’apprentissage supervisé automatique pour la fouille de grandes bases de données multi-tables. L’importance prédictive des variables est évaluée au moyen de modèles de discrétisation dans le cas numérique et de groupement de valeurs dans le cas catégoriel. Dans le cas d’une base multi-tables, par exemple des clients avec leurs achats, une table d’analyse individus ×...
متن کاملVers une Automatisation de la Construction de Variables pour la Classification Supervisée
Résumé. Dans cet article, nous proposons un cadre visant à automatiser la construction de variables pour l’apprentissage supervisé, en particulier dans le cadre multi-tables. La connaissance du domaine est spécifiée d’une part en structurant les données en variables, tables et liens entre tables, d’autre part en choisissant des règles de construction de variables. L’espace de construction de va...
متن کاملSélection de variables non supervisée sous contraintes hiérarchiques
Résumé. La sélection des variables a un rôle très important dans la fouille de données lorsqu’un grand nombre de variables est disponible. Ainsi, certaines variables peuvent être peu significatives, corrélées ou non pertinentes. Une méthode de sélection a pour objectif de mesurer la pertinence d’un ensemble utilisant principalement un critère d’évaluation. Nous présentons dans cet article un cr...
متن کامل